數據遺失(missing data)是資料處理常見的問題,在分析時通常處理的方式有兩種:這筆資料不列入分析,或是填上一個合理的值(imputation)。
當你手上的資料很多的時候,直接忽略這筆有缺失的資料,應該是可以承擔的損失;但有時候資料已經不多,或是這個數值的遺失本身就具有意義,這時候怎樣「正確的」補上資料,就很有實務上的價值。
一般填補遺失資料的方法有幾種:
- 填上空白值(0 或 -1)
- 填上平均值(或分組的平均值)
- 用其他資料的數值來預測
Google 的文件裡並沒有說明 Smart Autofill 使用的是哪一種方式,不過從文件裡的範例來看,應該是第三種,因為自動補值還會提供準確度或錯誤率的資訊,所以至少是用迴歸(regression)或其它統計模型來做預測。
這個功能解決了資料分析實務上很常見又令人頭疼的問題,雖然自動補值所使用的的統計模型沒有說明得很清楚,也沒有什麼參數可以調整,但是這已經比很多初階的資料分析員更「內行」了。
附帶分享一個從 Twitter 的資料裏學到的 imputation 技巧:如果欄位 X 有遺失值,除了補值之外,另外創造一個變數 X_missing,填入 0 或 1,來代表 X 這一欄是否有 missing,這樣既可以正常使用 X 這個欄位,又可以保留 X 是否遺失額外的意義(一個人的發言裡髒話多少,跟是否從來沒有出現過髒話,意義是不一樣的)。雖然這樣一來變數的數量會多一倍,但「寬資料」正是 Big Data 時代為我們從資料中尋找洞見的新契機。
沒有留言:
張貼留言